自动检测视网膜结构,例如视网膜血管(RV),凹起的血管区(FAZ)和视网膜血管连接(RVJ),对于了解眼睛的疾病和临床决策非常重要。在本文中,我们提出了一种新型的基于投票的自适应特征融合多任务网络(VAFF-NET),用于在光学相干性层析成像(OCTA)中对RV,FAZ和RVJ进行联合分割,检测和分类。提出了一个特定于任务的投票门模块,以适应并融合两个级别的特定任务的不同功能:来自单个编码器的不同空间位置的特征,以及来自多个编码器的功能。特别是,由于八八座图像中微脉管系统的复杂性使视网膜血管连接连接到分叉/跨越具有挑战性的任务的同时定位和分类,因此我们通过结合热图回归和网格分类来专门设计任务头。我们利用来自各种视网膜层的三个不同的\ textit {en face}血管造影,而不是遵循仅使用单个\ textit {en face}的现有方法。为了促进进一步的研究,已经发布了这些数据集的部分数据集,并已发布了公共访问:https://github.com/imed-lab/vaff-net。
translated by 谷歌翻译
由于其不断增加的资源需求,在低资源边缘设备上部署深层神经网络是具有挑战性的。最近的研究提出了无倍数的神经网络,以减少计算和记忆消耗。 Shift神经网络是这些减少的最有效工具之一。但是,现有的低位换档网络不如其完整的精度对应物准确,并且由于其固有的设计缺陷,无法有效地转移到广泛的任务中。我们提出了利用以下新颖设计的光泽网络。首先,我们证明低位移位网络中的零重量值既不有用,也不简化模型推断。因此,我们建议使用零移动机制来简化推理,同时增加模型容量。其次,我们设计了一个新的指标,以测量训练低位移位网络中的重量冻结问题,并提出一个符号尺度分解以提高训练效率。第三,我们提出了低变化的随机初始化策略,以提高模型在转移学习方案中的性能。我们对各种计算机视觉和语音任务进行了广泛的实验。实验结果表明,光泽网络明显胜过现有的低位乘法网络,并可以实现全精度对应物的竞争性能。它还表现出强大的转移学习表现,没有准确性下降。
translated by 谷歌翻译
基因本体论(GO)是能够在生物医学中实现计算任务的主要基因功能知识基础。 GO的基本元素是一个术语,其中包括一组具有相同功能的基因。 GO的现有研究工作主要集中于预测基因术语关联。很少追求其他任务,例如生成新术语的描述。在本文中,我们提出了一项新颖的任务:GO术语描述生成。该任务旨在自动生成一个句子,该句子描述了属于这三个类别之一的GO术语的功能,即分子功能,生物过程和细胞分量。为了解决此任务,我们提出了一个可以有效利用GO结构信息的图形网络。提出的网络引入了两层图:第一层是GO术语的图形,每个节点也是一个图(基因图)。这样的图形网络可以得出GO术语的生物学功能并生成适当的描述。为了验证拟议网络的有效性,我们构建了三个大规模基准数据集。通过合并所提出的图形网络,可以在所有评估指标中显着提高七个不同序列与序列模型的性能,其中BLEU,Rouge-rouge-相对改善高达34.7%,14.5%和39.1% L和流星。
translated by 谷歌翻译
Incorporating knowledge graph as side information has become a new trend in recommendation systems. Recent studies regard items as entities of a knowledge graph and leverage graph neural networks to assist item encoding, yet by considering each relation type individually. However, relation types are often too many and sometimes one relation type involves too few entities. We argue that it is not efficient nor effective to use every relation type for item encoding. In this paper, we propose a VRKG4Rec model (Virtual Relational Knowledge Graphs for Recommendation), which explicitly distinguish the influence of different relations for item representation learning. We first construct virtual relational graphs (VRKGs) by an unsupervised learning scheme. We also design a local weighted smoothing (LWS) mechanism for encoding nodes, which iteratively updates a node embedding only depending on the embedding of its own and its neighbors, but involve no additional training parameters. We also employ the LWS mechanism on a user-item bipartite graph for user representation learning, which utilizes encodings of items with relational knowledge to help training representations of users. Experiment results on two public datasets validate that our VRKG4Rec model outperforms the state-of-the-art methods. The implementations are available at https://github.com/lulu0913/VRKG4Rec.
translated by 谷歌翻译
如何从未标记的数据中采样高质量的负面实例,即负抽样,对于培训隐式协作过滤和对比度学习模型很重要。尽管以前的研究提出了一些样本信息实例的方法,但很少有用于将假阴性与无偏见的负面抽样区分开。根据我们对否定分数的订单关系分析,我们首先得出了真正的负面阴性的阶级有条件密度。接下来,我们为负分类设计了贝叶斯分类器,从中定义了一个模型 - 不合稳定后验概率估计值,即实例为真为负面作为定量负信号度量。我们还提出了一项贝叶斯最佳抽样规则,以采样高质量的负面因素。提出的贝叶斯阴性采样(BNS)算法具有线性时间复杂性。实验研究以更好的采样质量和更好的建议性能来验证BNS优于同龄人的优势。
translated by 谷歌翻译
Interpreting the predictions of existing Question Answering (QA) models is critical to many real-world intelligent applications, such as QA systems for healthcare, education, and finance. However, existing QA models lack interpretability and provide no feedback or explanation for end-users to help them understand why a specific prediction is the answer to a question. In this research, we argue that the evidences of an answer is critical to enhancing the interpretability of QA models. Unlike previous research that simply extracts several sentence(s) in the context as evidence, we are the first to explicitly define the concept of evidence as the supporting facts in a context which are informative, concise, and readable. Besides, we provide effective strategies to quantitatively measure the informativeness, conciseness and readability of evidence. Furthermore, we propose Grow-and-Clip Evidence Distillation (GCED) algorithm to extract evidences from the contexts by trade-off informativeness, conciseness, and readability. We conduct extensive experiments on the SQuAD and TriviaQA datasets with several baseline models to evaluate the effect of GCED on interpreting answers to questions. Human evaluation are also carried out to check the quality of distilled evidences. Experimental results show that automatic distilled evidences have human-like informativeness, conciseness and readability, which can enhance the interpretability of the answers to questions.
translated by 谷歌翻译
尽管概念化已经在语义和知识表示中进行了广泛研究,但找到最准确的概念短语来表征在快速增长的社交媒体上表征文本片段的主要思想仍然具有挑战性。这部分归因于以下事实:大多数知识库都包含世界的一般术语,例如树木和汽车,它们没有定义的力量或对社交媒体应用程序用户不够有趣。另一个原因是,自然语言的复杂性允许使用时态,否定和语法改变语言的逻辑或重点,从而传达了完全不同的含义。在本文中,我们提出了标签,这是一个高质量的概念匹配的数据集,该数据集由10,000个标记的精细概念和网络风格的自然语言句子组成,并从开放域社交媒体中挖出。我们考虑的概念代表了在线用户的趋势兴趣。与标签相关的是这些细粒度概念和实体的概念图,以提供结构上下文信息。我们在标签上评估了广泛的流行神经文本匹配模型以及预先训练的语言模型,并指出他们以最合适的概念标记社交媒体内容的不足。我们进一步提出了一种新颖的图形匹配方法,该方法通过更好地利用概念图中的结构上下文和句子中语义单元之间的逻辑相互作用在句子中通过句法依赖性解析来展示出色的抽象和概括性能。我们开源标签数据集和提出进一步研究的建议方法。
translated by 谷歌翻译
视频字幕结合了视频理解和语言生成。与图像标题不同,描述具有几乎每个对象的细节的静态图像,视频字幕通常考虑一系列帧和偏置朝向聚焦对象的偏差,例如,保持焦点的对象,无论更改的背景如何。因此,检测和适当地容纳聚焦对象在视频字幕中是至关重要的。为了执行聚焦对象的描述并实现可控制的视频标题,我们提出了一种面向对象的非自动增加方法(O2NA),其执行三个步骤中的标题生成:1)识别聚焦对象并预测其在目标字幕中的位置; 2)生成相关的属性词和这些聚焦对象的关系词来形成标题草案; 3)将视频信息组合以将标题草案精炼到流利的最终标题。由于产生了聚焦的对象并领先于其他单词,因此难以应用逐字的自回归生成过程;相反,我们采用了非自动评级方法。在两个基准数据集,即MSR-VTT和MSVD上的实验证明了O2NA的有效性,这实现了与最先进的结果竞争,但具有更高的多样性和推理速度。
translated by 谷歌翻译
通过移除昂贵的乘法操作并将连续权重量化成低比特离散值来减少计算复杂性,与传统的神经网络相比,这是快速且节能的低比特离散值。然而,现有的换档网络对重量初始化敏感,并且还产生由消失梯度和重量率冻结问题引起的降级性能。为了解决这些问题,我们提出了一种低点重新参数化,这是一种用于训练低位换档网络的新技术。我们的方法以符号稀疏偏移3倍的方式分解离散参数。以这种方式,它有效地学习了一个低比特网络,其权重动力学类似于全精密网络并对重量初始化不敏感。我们所提出的培训方法推动移位神经网络的界限,并以在想象中的前1个精度方面显示出3位换档网络。
translated by 谷歌翻译
主题标签的生成旨在从微博帖子中生成简短和非正式的局部标签,在该帖子中,令牌或短语形成主题标签。这些令牌或短语可能源自原始文本中的主要碎片文本片段(例如,段),并分为不同的段。但是,传统的序列到序列生成方法很难从不同的文本粒度中滤除次级信息,并且不擅长选择关键令牌。因此,它们在产生更多凝结的主题标签时是次优的。在这项工作中,我们提出了一个基于变压器的生成模型,并为原始编码和解码阶段添加了一个段选择过程。段选择阶段基于一种新型的细分选择机制(SSM),以对全球文本,本地段和令牌上的不同文本粒度进行建模,从而有助于产生冷凝标签。具体而言,它首先关注主要的语义段,然后通过选择关键令牌将不连续的段从源文本转换为一系列主题标签。对两个数据集的广泛评估揭示了我们的方法的优势,并对提取和发电基线进行了重大改进。代码和数据集可在https://github.com/opensum/hashtaggen上找到。
translated by 谷歌翻译